132 research outputs found

    Constructions with SE in African varieties of Portuguese

    Get PDF
    Portuguese is the official language of five African countries, Angola, Cape Verde, Guinea-Bissau, Mozambique and S. Tome and Principe. In the case of Cape Verde, Guinea-Bissau and S. Tome and Principe, Creole languages have emerged and are widely used, resulting in Portuguese being spoken by a minority, while in Angola and Mozambique the number of Portuguese speakers has increased since independence from Portugal (in 1975) and Portuguese has established itself as a factor of national unity, in the face of a large diversity of languages spoken by the population. Five corpora of these African varieties of Portuguese (AVP) have recently been compiled (Bacelar do Nascimento et al. 2006) and have enabled initial contrastive studies on the lexicon and on the syntax, pointing to specific linguistic aspects where AVP differ from the European Portuguese (EP) norm. This paper will focus on the specific case of constructions with SE, ranging from reflexive and reciprocal, intrinsically pronominal, passive, impersonal or anticausative, under a contrastive perspective with EP, and will be based on data collected from the spoken subpart of the Corpus Africa.info:eu-repo/semantics/publishedVersio

    CRPC-DB – A Discourse Bank for Portuguese

    Get PDF

    LDM-PT - A Portuguese Lexicon of Discourse Markers

    Get PDF
    The Lexicon of Discourse Markers (LDM-PT) provides a set of lexical items in Portuguese that have the function of structuring discourse and ensuring textual cohesion and coherence at intrasentential and inter-sentential levels. Each connective is associated to the set of its rhetorical senses, following the PDTB typology.info:eu-repo/semantics/publishedVersio

    Collocations in Portuguese: A corpus-based approach to lexical patterns

    Get PDF
    Collocations and, more generally, multiword expressions, have been extensively studied for the English language and a large set of resources are available in terms of linguistic description and tools for language learning. On the contrary, combinatorial resources for Portuguese are scarce, although specific types of collocations, such as light verb constructions, nominal compounds and proverbs, have been the topic of many studies. This chapter reviews different theoretical perspectives on multiword expressions and collocations in Portuguese and presents in more detail the results of the COMBINA-PT project, a corpus-based approach to the study of collocations.info:eu-repo/semantics/publishedVersio

    An Electronic Dictionary of Collocations for European Portuguese: Methodology, Results and Applications

    Get PDF
    This paper discusses a lexicographic approach to collocations, presenting the methodology, options, results andapplications of an electronic Dictionary of Portuguese Collocations (DCP). The methodology underlying thedictionary involves the extraction from a corpus of contemporary Portuguese of lexical associations of pairs ofword forms, contiguous or not. The significance of the pairs is statistically measured by the Mutual Information(MI) calculus, as well as by the MI weighted by the frequency of the pair (MIF). Other issues are discussed:frequency of the word forms vs. frequency of the lemmas, the organization of the collocations in the dictionary,grammatical patterns as source of lexical information, as well as the splitting of collocations into sense-groups.info:eu-repo/semantics/publishedVersio

    Uma análise dos verbos psicológicos com base nos dados de um corpus: regularidade, variação e polissemia verbal

    Get PDF
    Os verbos psicológicos expressam uma experiência de natureza emocional, sendo assim também designados por verbos de emoção, e dividem-se, na literatura, em verbos com Experienciador sujeito, como o verbo amar, e verbos com Experienciador Objecto, como preocupar. É normalmente assumido, nos numerosos estudos sobre esta classe, que os verbos de cada subtipo apresentam um comportamento perfeitamente homogéneo, embora os resultados apresentados sejam, na generalidade dos casos, baseados em poucos exemplos de um ou de ambos os subtipos referidos. Os resultados aqui apresentados baseiam-se no estudo de um conjunto de 221 verbos psicológicos com objecto directo Experienciador, do tipo de preocupar, tendo sido analisados contextos de usos reais destes verbos, extraídos de um corpus de língua portuguesa. A análise do comportamento sintáctico de uma amostragem vasta, que nos parece ser de facto representativa desta classe verbal, bem como o recurso a dados reais da língua, levam a um maior conhecimento da regularidade sintáctica existente no interior desta classe verbal e do grau de variação entre os seus elementos. Para além de permitir obter um conhecimento mais aprofundado desta classe verbal específica, este tipo de estudo levanta ainda questões que se prendem com a própria existência de classes verbais, estabelecidas sintáctica ou semanticamente, quando confrontadas com a variação encontrada na língua. Os dados analisados foram extraídos de um corpus de língua portuguesa com 12 milhões de palavras, constituído a partir de um corpus muito mais extenso: o Corpus de Referência do Português Contemporâneo, do Centro de Linguística da Universidade de Lisboa.info:eu-repo/semantics/publishedVersio

    Modalidade e foco: uma análise baseada em dados de corpus

    Get PDF
    Apresenta-se neste artigo uma análise da interação entre os conceitos de modalidade e de foco em contextos com o advérbio focalizador exclusivo só e um verbo semi-auxiliar modal (poder, dever ou ter (de)) ou ainda a estrutura predicativa ser capaz de. Interessa-nos observar de que forma o advérbio exclusivo, com efeitos sobre a estrutura informacional, pode interagir com o significado modal de base do contexto e ainda aduzir eventuais valores pragmáticos. O trabalho enquadra-se na Linguística de Corpus, assumindo a necessidade de basear a análise em dados de corpora, isto é, em contextos não construídos. Para esse efeito, recorreu-se ao Corpus de Referência do Português Contemporâneo, um corpus que abrange um conjunto diversificado de géneros textuais. Os contextos foram selecionados de forma aleatória sobre a subparte de português europeu. A análise dos dados mostra de que forma contextos com uso epistémico de possibilidade do verbo poder são interpretados como tendo uma leitura de necessidade após a restrição sobre o conjunto de alternativas realizada pelo advérbio focalizador. Os dados apontam pistas importantes no que diz respeito às propriedades que determinam a leitura de necessidade, sendo aqui fundamental a natureza do foco do advérbio, o tempo do predicado e a sua natureza aspetual. O advérbio tem ainda, em muitos contextos, quer um valor mirativo, identificando a alternativa como mais fraca do que o esperado, quer um valor enfático de reforço da alternativa apresentada

    Multilingual Extension of PDTB-Style Annotation: The Case of TED Multilingual Discourse Bank

    Get PDF
    We introduce TED-Multilingual Discourse Bank, a corpus of TED talks transcripts in 6 languages (English, German, Polish, EuropeanPortuguese, Russian and Turkish), where the ultimate aim is to provide a clearly described level of discourse structure and semanticsin multiple languages. The corpus is manually annotated following the goals and principles of PDTB, involving explicit and implicitdiscourse connectives, entity relations, alternative lexicalizations and no relations. In the corpus, we also aim to capture the character-istics of spoken language that exist in the transcripts and adapt the PDTB scheme according to our aims; for example, we introducehypophora. We spot other aspects of spoken discourse such as the discourse marker use of connectives to keep them distinct from theirdiscourse connective use. TED-MDB is, to the best of our knowledge, one of the few multilingual discourse treebanks and is hoped tobe a source of parallel data for contrastive linguistic analysis as well as language technology applications. We describe the corpus, theannotation procedure and provide preliminary corpus statistics.info:eu-repo/semantics/publishedVersio